Eco-driving strategies have been shown to provide significant reductions in fuel consumption. This paper outlines an active driver assistance approach that uses a residual policy learning (RPL) agent trained to provide residual actions to default power train controllers while balancing fuel consumption against other driver-accommodation objectives. Using previous experiences, our RPL agent learns improved traction torque and gear shifting residual policies to adapt the operation of the powertrain to variations and uncertainties in the environment. For comparison, we consider a traditional reinforcement learning (RL) agent trained from scratch. Both agents employ the off-policy Maximum A Posteriori Policy Optimization algorithm with an actor-critic architecture. By implementing on a simulated commercial vehicle in various car-following scenarios, we find that the RPL agent quickly learns significantly improved policies compared to a baseline source policy but in some measures not as good as those eventually possible with the RL agent trained from scratch.
translated by 谷歌翻译
With the growing need to reduce energy consumption and greenhouse gas emissions, Eco-driving strategies provide a significant opportunity for additional fuel savings on top of other technological solutions being pursued in the transportation sector. In this paper, a model-free deep reinforcement learning (RL) control agent is proposed for active Eco-driving assistance that trades-off fuel consumption against other driver-accommodation objectives, and learns optimal traction torque and transmission shifting policies from experience. The training scheme for the proposed RL agent uses an off-policy actor-critic architecture that iteratively does policy evaluation with a multi-step return and policy improvement with the maximum posteriori policy optimization algorithm for hybrid action spaces. The proposed Eco-driving RL agent is implemented on a commercial vehicle in car following traffic. It shows superior performance in minimizing fuel consumption compared to a baseline controller that has full knowledge of fuel-efficiency tables.
translated by 谷歌翻译
在本文中,我们将预处理技术应用于具有不同长度的多通道时间序列数据,我们称之为对齐问题,用于下游机器学习。多种原因可能发生多种渠道时间序列数据的未对准,原因有多种原因,例如丢失的数据,变化的采样率或不一致的收集时间。我们考虑从MIT SuperCloud高性能计算(HPC)中心收集的多渠道时间序列数据,其中不同的工作开始时间和HPC作业的运行时间不同,导致数据不对准。这种未对准使得为计算工作负载分类等任务构建AI/ML方法具有挑战性。在先前使用MIT SuperCloud数据集的监督分类工作的基础上,我们通过三种宽阔的低间接空间方法解决了对齐问题:从全职系列中抽样固定子集,在全职系列上执行摘要统计信息,并对系数进行取样。从映射到频域的时间序列。我们最佳性能模型的分类精度大于95%,以先前的方法对MIT SuperCloud数据集的多通道时间序列分类的表现优于5%。这些结果表明,我们的低间接费用方法与标准机器学习技术结合使用,能够达到高水平的分类准确性,并作为解决对齐问题(例如内核方法)的未来方法的基准。
translated by 谷歌翻译
众所周知,具有重新激活函数的完全连接的前馈神经网络可以表示的参数化函数家族恰好是一类有限的分段线性函数。鲜为人知的是,对于Relu神经网络的每个固定架构,参数空间都允许对称的正维空间,因此,在任何给定参数附近的局部功能维度都低于参数维度。在这项工作中,我们仔细地定义了功能维度的概念,表明它在Relu神经网络函数的参数空间中是不均匀的,并继续进行[14]和[5]中的调查 - 何时在功能维度实现其理论时最大。我们还研究了从参数空间到功能空间的实现图的商空间和纤维,提供了断开连接的纤维的示例,功能尺寸为非恒定剂的纤维以及对称组在其上进行非转换的纤维。
translated by 谷歌翻译
鉴于HEP研究的核心,数据科学(DS)和机器学习(ML)在高能量物理学(HEP)中的作用增长良好和相关。此外,利用物理数据固有的对称性激发了物理信息的ML作为计算机科学研究的充满活力的子场。 HEP研究人员从广泛使用的材料中受益匪浅,可用于教育,培训和劳动力开发。他们还为这些材料做出了贡献,并为DS/ML相关的字段提供软件。物理部门越来越多地在DS,ML和物理学的交集上提供课程,通常使用HEP研究人员开发的课程,并涉及HEP中使用的开放软件和数据。在这份白皮书中,我们探讨了HEP研究与DS/ML教育之间的协同作用,讨论了此交叉路口的机会和挑战,并提出了将是互惠互利的社区活动。
translated by 谷歌翻译
动物行为是由与不同控制策略并行工作的多个大脑区域驱动的。我们提出了基础神经节中损失钢筋学习的生物学上合理的模型,该模型可以在这种建筑中学习。该模型说明了与动作相关的多巴胺活动调制,该调制不是由实现政策算法的以前模型捕获的。特别是,该模型预测,多巴胺活动标志着奖励预测误差(如经典模型)和“动作惊喜”的组合,这是对动作相对于基础神经节的当前政策的意外程度的衡量标准。在存在动作惊喜项的情况下,该模型实现了Q学习的近似形式。在基准导航和达到任务上,我们从经验上表明,该模型能够完全或部分由其他策略(例如其他大脑区域)学习。相比之下,没有动作惊喜术语的模型在存在其他政策的情况下遭受了损失,并且根本无法从完全由外部驱动的行为中学习。该模型为多巴胺活性提供了许多实验发现,提供了一个计算说明,这是基础神经节中的经典增强模型无法解释的。这些包括背侧和腹侧纹状体中不同水平的动作惊喜信号,通过实践减少了运动调节的多巴胺活性的量以及多巴胺活性的动作起始和运动学的表示。它还提供了进一步的预测,可以通过纹状体多巴胺活性的记录进行测试。
translated by 谷歌翻译
这项工作为2022年ICML表达性发声挑战exvo-multitask轨道的人声爆发音频介绍了对年龄,原产国和情感的同时估计的多任务方法。选择的方法利用了光谱 - 周期调制和自我监督的特征的组合,然后是在多任务范式中组织的编码器编码网络。我们通过检查独立的任务特定模型和联合模型来评估所构成的任务之间的互补性,并探索不同特征集的相对强度。我们还引入了一种简单的分数融合机制,以利用此任务的不同特征集的互补性。我们发现,与光谱 - 周期性接收场的得分融合结合进行了强大的数据预处理,而Hubert模型达到了我们最佳的EXVO-Multitask测试评分为0.412。
translated by 谷歌翻译
在本文中,我们介绍了一种草图算法,用于构建其样品概率密度的张量列车表示。我们的方法偏离了基于标准的递归SVD构建张量列车的程序。取而代之的是,我们为单个张量火车芯制定并求解一系列小型线性系统。这种方法可以避免维数的诅咒,从而威胁恢复问题的算法和样本复杂性。具体而言,对于马尔可夫模型,我们证明可以使用相对于尺寸恒定的样品复杂性回收张量芯。最后,我们通过几个数值实验说明了该方法的性能。
translated by 谷歌翻译
识别来自视频饲料的操作是一个具有挑战性的任务,可以自动化,尤其是旧硬件。这个项目有两个目标:一个是从Android手机上识别出面的正面相机的动作,另一个是支持尽可能多的手机和Android版本。这将我们限制了使用足够小的模型来在具有GPU的手机上运行,并且仅使用相机馈送来识别动作。在本文中,我们使用在自定义数据集上培训的模型进行跨设备(有和没有专用GPU)的YOLO架构的性能。我们还讨论在有限硬件上识别视频的识别和行动的限制。
translated by 谷歌翻译
变异蒙特卡洛(VMC)是一种计算地面波形的方法,由于引入基于神经网络的波函数参数化,最近它变得更加强大。但是,有效地训练神经波函数以收敛到最小能量仍然是一个困难的问题。在这项工作中,我们分析了VMC中使用的优化和采样方法,并引入了改动以提高其性能。首先,基于理论融合分析在无噪声的环境中,我们激励了一种新的优化器,我们称之为雷利 - 高斯 - 纽顿方法,该方法可以改善梯度下降和自然梯度下降,以实现超线性收敛,而计算成本小于两倍。其次,为了在存在随机噪声的情况下实现这种有利的比较,我们分析了采样误差对VMC参数更新的影响,并在实验上证明可以通过平行回火方法将其降低。特别是,我们证明,当采样器在配置空间的亚稳态区域之间移动时,可以使RGN具有强大的能量尖峰。最后,将理论付诸实践,我们将增强的优化和采样方法应用于大型晶格的横向场和XXZ模型,在仅200个参数更新后,以高度准确性地产生了基态能量估计。
translated by 谷歌翻译